📌Какой вектор лучше: Dense vs Multi-vector embeddings
Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.
📍Dense-векторы (single vector per doc): — быстрые — экономные по памяти — слабо улавливают контекст — «плавают» при сложных запросах 👉 подходят для простого поиска
📍Multi-vector (late interaction): — вектор на каждый токен — сравниваются токены запроса и документа напрямую — лучше качество на сложных задачах — выше требования к хранилищу 👉 баланс между скоростью и точностью
📍Late interaction ≈ золотая середина: — быстрее, чем cross-encoders — точнее, чем dense-векторы
📍Примеры моделей: — ColBERT — для текстов — ColPali — multimodal: текст + PDF как картинки — ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)
Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.
📌Какой вектор лучше: Dense vs Multi-vector embeddings
Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.
📍Dense-векторы (single vector per doc): — быстрые — экономные по памяти — слабо улавливают контекст — «плавают» при сложных запросах 👉 подходят для простого поиска
📍Multi-vector (late interaction): — вектор на каждый токен — сравниваются токены запроса и документа напрямую — лучше качество на сложных задачах — выше требования к хранилищу 👉 баланс между скоростью и точностью
📍Late interaction ≈ золотая середина: — быстрее, чем cross-encoders — точнее, чем dense-векторы
📍Примеры моделей: — ColBERT — для текстов — ColPali — multimodal: текст + PDF как картинки — ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)
Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.
You can’t. What you can do, though, is use WhatsApp’s and Telegram’s web platforms to transfer stickers. It’s easy, but might take a while.Open WhatsApp in your browser, find a sticker you like in a chat, and right-click on it to save it as an image. The file won’t be a picture, though—it’s a webpage and will have a .webp extension. Don’t be scared, this is the way. Repeat this step to save as many stickers as you want.Then, open Telegram in your browser and go into your Saved messages chat. Just as you’d share a file with a friend, click the Share file button on the bottom left of the chat window (it looks like a dog-eared paper), and select the .webp files you downloaded. Click Open and you’ll see your stickers in your Saved messages chat. This is now your sticker depository. To use them, forward them as you would a message from one chat to the other: by clicking or long-pressing on the sticker, and then choosing Forward.
Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from in